机器学习算法广泛用于恶意软件检测区域。随着样本量的增长,分类算法的培训变得越来越昂贵。此外,培训数据集可能包含冗余或嘈杂的实例。要解决的问题是如何从大型训练数据集中选择代表性实例,而无需降低准确性。这项工作提出了一种新的并行实例选择算法,称为并行实例过滤(PIF)。该算法的主要思想是将数据集拆分为涵盖整个数据集的实例的非重叠子集,并为每个子集应用一个过滤过程。每个子集由具有相同敌人的实例组成。结果,PIF算法很快,因为使用并行计算将子集彼此独立处理。我们将PIF算法与500,000个恶意和良性样本的大型数据集中的几种最新实例选择算法进行了比较。使用静态分析提取功能集,其中包括从便携式可执行文件格式中的元数据。我们的实验结果表明,所提出的实例选择算法可大大减少训练数据集的大小,而精度却略有降低。就平均分类精度和存储百分比之间的比率而言,PIF算法的表现优于实验中使用的现有实例选择方法。
translated by 谷歌翻译